# 《DeepSeek RAG 知识库》第5节：Ollama RAG 知识库上传、解析和验证

作者：小傅哥
博客：https://bugstack.cn (opens new window)

沉淀、分享、成长，让自己和他人都能有所收获！😄

# 一、本章诉求

以大模型向量存储的方式，提交本地文件到知识库。并在 AI 对话中增强检索知识库符合 AI 对话内容的资料，合并提交问题。

# 二、技术方案

以 Spring AI 提供的向量模型处理框架，将上传文件以 TikaDocumentReader 方式进行解析，再通过 TokenTextSplitter 拆分文件。完成这些操作后，在遍历文档添加标记。标记的作用是为了可以区分不同的知识库内容。完成这些动作后，把这些拆解并打标的文件存储到 postgresql 向量库中。

本技术方案旨在利用 Spring AI 提供的向量模型处理框架，对上传的文件进行解析、拆分、标记，并将处理后的数据存储到 PostgreSQL 向量库中。通过这一流程，可以实现对文件内容的高效管理和检索，特别是在需要区分不同知识库内容的场景下。

# 1. 技术组件

Spring AI: 提供向量模型处理框架，支持文件的解析、拆分和向量化操作。
TikaDocumentReader: 用于解析上传的文件，支持多种文件格式（如 MD、TXT、SQL 等）。
TokenTextSplitter: 用于将解析后的文本内容拆分为更小的片段，便于后续处理和存储。
PostgreSQL 向量库: 用于存储处理后的文本向量数据，支持高效的相似性搜索和检索。

# 2. 方案流程

# 2.1 文件上传与解析

文件上传: 用户通过前端界面或 API 上传文件，文件可以是多种格式（如 MD、TXT、SQL 等）。
文件解析: 使用 TikaDocumentReader 对上传的文件进行解析，提取出文本内容。TikaDocumentReader 能够处理多种文件格式，并提取出结构化的文本数据。

← 【更】第4节：Ollama DeepSeek 流式应答页面对接【更】第6节：Ollama RAG 知识库接口服务实现 →

常用搜索	百度 Google Bing Github 搜代码
技术社区	CDSN 博客园 OSChina 思否掘金 Linux公社 IBM 开发者 StackOverflow
PDF 下载	《Java 面经手册》《重学Java设计模式》《手撸 Spring》《字节码编程》
面试求职	简历优化简历筛选大厂要求薪资待遇北漂生活
Java相关	数据结构和算法并发和锁多线程 Java8 特性 JVM 虚拟机
Spring	手写 Spring SpringCloud 入门 Mybatis 源码分析手写 Mybatis Quartz 源码分析
面向对象	设计模式 DDD 落地低代码字节码插桩画架构图系统监控中台研发规范
中间件&插件	Maven中央仓库数据库路由设计 IDEA-Plugin
Netty 4.x	基础入门中级拓展高级应用 RPC 实现 IM 仿微信
字节码编程	ASM Javassist Byte-Buddy JavaAgent ASM-DOC JVM 指令码
专栏小册	《Netty+JavaFx实战：仿桌面版微信聊天》《SpringBoot 中间件设计和开发》《Lottery 抽奖系统 - 基于领域驱动设计的四层架构实践》
知识星球	码农会锁实战项目